وب جهانگستر که بسیاری بهنام فضای مجازی از آن نام میبرند، نمونه واضح دیگری از منابع دادهای است که میلیاردها صفحه وب شامل اطلاعات متنی و چند رسانهای را شامل میشود. صفحاتی که روزانه توسط میلیونها نفر در سراسر جهان بازدید میشود. تحلیل این حجم از اطلاعات به شکل قابل فهم برای انسانها موضوعی چالشبرانگیز است. به همین دلیل است که شرکتها به سراغ مفهوم مهمی بهنام دادهکاوی رفتهاند. دادهکاوی روشها و ابزارهایی را برای خودکارسازی تحلیلها و اکتشاف مجموعه دادههای بزرگ و پیچیده ارائه میکند. امروزه، تحقیقات گستردهای در ارتباط با دادهکاوی در حوزههای متنوع و گستردهای نظیر آمار، علوم کامپیوتر، یادگیری ماشین، مدیریت پایگاه دادهها و بصریسازی دادهها انجام میشود. البته دادهکاوی منحصر به حوزههای آماری نیست و حتا در ارتباط با پردازش سیگنالها نیز کاربرد دارد.
دادهکاوی چیست؟
به مجموعه روشهای قابل اجرا روی بانکهای اطلاعاتی بزرگ و پیچیده با هدف شناسایی الگوهای پنهان و جالب مستتر در میان دادهها، دادهکاوی میگویند. راهحلهای دادهکاوی همواره به لحاظ پردازشی هزینهبر هستند. دادهکاوی علمی میان رشتهای در ارتباط با ابزارها، متدولوژیها و فرضیههایی است که برای آشکارسازی الگوهای موجود در دادهها استفاده میشود. آشکارسازی الگوها در این زمینه شباهت زیادی به الگوهای ارائه شده در دنیای برنامهنویسی دارد. برخی از مردم داده کاوی را واژهای مترادف با کشف دانش در بانکهای اطلاعاتی (KDD) سرنام (knowledge discovery in databases) میدانند که برداشت نسبتا دقیقی است، زیرا دادهکاوی در راستای کشف دانش استفاده میشود. دادهکاوی، بانکهای اطلاعاتی و مجموعه گستردهای از دادهها را در پی کشف و استخراج دانش، مورد تحلیل قرار میدهد. اینگونه مطالعات و کاوشها را به واقع میتوان همان امتداد و استمرار دانش کهن و فراگیر آمار توصیف کرد. تفاوت عمده در مقیاس، وسعت و گوناگونی زمینهها و کاربردها و ابعاد و اندازههای دادههای امروزی است که شیوههای ماشینی مربوط به یادگیری، مدلسازی و آموزش را طلب میکند. دلایل زیادی پیرامون چرایی و اهمیت دادهکاوی در حوزههای پژوهشی وجود دارد که از آن جمله به موارد زیر میتوان اشاره کرد:
- رشد انفجاری دادهها در حوزهای مختلف صنعت و دانشگاه که باعث شده تجهیزات ذخیرهسازی نسبت به گذشته ارزانتر شوند. این موضوع با ورود ظرفیتهای ذخیرهسازی نامحدود ابری دوچندان شده است.
- ارتباطات سریعتر و پر سرعت که اجازه میدهند دادهها در کسری از ثانیه از مبدا به مقصد برسند.
- بهبود عملکرد سامانههای مدیریت بانکهای اطلاعاتی و پشتیبانی دقیقتر نرمافزارهای ثالث
- رشد شبکههای کامپیوتری که در ارتباط برقرار کردن پایگاهها داده استفاده میشوند.
- افزایش تکنیکهایی بر پایه جستوجو مثل شبکههای عصبی و الگوریتمهای پیشرفته.
- گسترش مدل محاسبه کلاینت سروری که به کاربران اجازه دسترسی به منابع دادههای متمرکز را از روی کامپیوترهای شخصی میدهد.
- بهبود قابلیت تلفیق دادهها از منابع غیرمتجانس به یک منبع قابل جستوجو.
ترکیب عوامل یاد شده حجم سنگین و متنوعی از دادهها را پدید آورده که بدون وجود راهحلهای دادهکاوی استخراج دانش از دل این حجم از دادهها فراهم نبود. به همین دلیل است که بزرگان این حوزه همچون ژیاوی هان میگویند: «دادههای ذخیره شده در بانکهای اطلاعاتی و انبارهای دادهای به گورهای دادهای تبدیل شدهاند. برای غلبه بر مشکل روزافزون شکاف میان دادهها و اطلاعات به توسعه ابزارهای ساختیافتهای نیاز داریم که بتوانند گورهای داده را به شمشهای طلا تبدیل کنند.» راهحلهای دادهکاوی متنوع هستند و از رگرسیون گرفته تا روشهای شناسایی الگوهای پیچیده و دارای هزینه پردازشی بالا که در زیرمجموعه علوم کامپیوتر قرار میگیرند را شامل میشوند. سازمانها و شرکتهای بزرگ با هدف پیشبینی تحولات حوزه کاری خود از راهحلهای دادهکاوی استفاده میکنند، در حالی که دادهکاوی کاربردهای دیگری نیز دارد.
دادهکاوی چگونه شکل گرفت؟
در دهه 60 میلادی کارشناسان آمار اصطلاح صید دادهها (Data Fishing) و لایروبی دادهها (Data Dredging) را برای اشاره به فعالیتهای مرتبط با تحلیل دادهها استفاده کردند. سی سال بعد و با انباشته شدن دادهها در بانکهای اطلاعاتی اصطلاح داده کاوی یکبار دیگر بهطور جدی مورد توجه سازمانها قرار گرفت. به همین دلیل است که برخی کارشناسان دنیای فناوریاطلاعات پیشنهاد دادهاند که بهتر است به جای اصطلاح دادهکاوی از اصطلاحات دیگری همچون کشف دانش از دادهها (Knowledge Discovery Froom Data) کشف اطلاعات (discovery Information) یا استخراج دانش (Knowledge Extraction) استفاده کرد. در حال حاضر، یادگیری آماری، تحلیل دادهها و علم دادهها از اصطلاحات مترادف با دادهکاوی هستند.
چرا از دادهکاوی استفاده میشود؟
همانگونه که اشاره شد دادهکاوی در زمینههای مختلف قابل استفاده است، زیرا تمامی شرکتها به دنبال آن هستند تا حجم انبوهی از دادههای خامی که در اختیار دارند را به اطلاعات و دانش قابل فهم تبدیل کنند. به لحاظ تاریخی راهحلهای دادهکاوی به گونهای گسترش یافتهاند که به سادگی میتوان آنها را در ابزارهای نرمافزاری پیادهسازی کرد و از اطلاعات جمعآوری شده بهترین استفاده را برد. در شرایطی که سامانههای دادهکاوی روی زیرساختهای کارگزار-کارخواه (Client/Server) قدرتمند پیادهسازی میشوند و دسترسی به بانکهای اطلاعاتی بزرگ را فراهم میکنند، این امکان وجود دارد تا به سوالاتی نظیر چه مشتریانی ممکن است خریدار چه محصولاتی در آینده باشند، در چه بازه زمانی باید محصولی را به بازار عرضه کرد و پرسشهای مشابه به شکل دقیقی پاسخ داد.
پیشبینی خودکار گرایشها و الگوهای رفتاری
این امکان وجود دارد تا دادهکاوی را برای خودکارسازی فرآیندها و پیشبینی اتفاقات آینده به کار گرفت. بهطور مثال، دادهکاوی میتواند تبدیل به ابزاری شود که برای کشف جرایم، ارزیابی میزان ریسک و فروش محصولات به کار رود، در بر گیرنده ابزارهای تجزیه و تحلیل اطلاعات برای کشف الگوهای معتبر و ناشناخته در میان انبوهی از دادهها باشد یا حتا در ارتباط با پیشبینی سیر تحولاتی استفاده شود که ممکن است بر عملکرد بازارهای بورس تاثیرگذار هستند. دادهکاوی در زمینه تأمین امنیت میتواند به منزله ابزاری برای شناسایی فعالیتهای افراد خرابکاری استفاده شود که قصد نفوذ به زیرساختها را دارند. بهطور مثال، افراد خرابکار ممکن است به دنبال شناسایی اطلاعات مربوط به حسابهای مالی سازمانها باشند، اما نه برای خالی کردن آنها، بلکه برای انجام فعالیتهایی همچون پولشویی یا دور زدن قوانین. در چنین شرایطی دادهکاوی میتواند با شناسایی و ردگیری فعالیتها (با استناد به اطلاعاتی که درون بانکهای اطلاعاتی ثبت شده) فعالیتهای مشکوک را شناسایی و گزارش کند. در سالهای اخیر دادهکاوی و ابزارهای مرتبط با این فناوری پیشرفتهای قابل ملاحظهای داشتهاند، با اینحال هنوز هم محدودیتهایی وجود دارد. بهطور مثال، در شرایطی که دادهکاوی در آشکارسازی الگوها و روابط کمک فراوانی میکند، اما اطلاعاتی درباره ارزش یا میزان اهمیت اطلاعات بهدست آمده ارائه نمیکند. همچنین، با وجود توانایی شناسایی روابط بین رفتارها یا متغیرها لزوماً قادر به کشف روابط علت و معلولی نیست. موفقیت دادهکاوی مستلزم دخالت عامل انسانی با تجربه است که توانایی کافی برای طبقهبندی تحلیلها را داشته باشد. با اینحال، عملکرد مثبت دادهکاوی در ارتباط با برخی حوزهها همچون بازاریابی به اثبات رسیده است. بازاریابی هدفمند، نمونهای روشن از بازاریابی پیشبینی است. شرکتهای بزرگ از دادهکاوی برای ارسال ایمیلهای تبلیغاتی هدفمند و بهینه استفاده میکنند تا اطمینان حاصل کنند بازگشت سرمایه آنها تضمین شده است. یکی از کاربردهای مهم و کاملا جذاب در این زمینه پیشبین ورشکستگی است. بسیاری از ما در خبرها میخوانیم که شرکتی بزرگ اعلام ورشکستگی کرده، در حالی که شرایط حاکم بر شرکت چنین چیزی را نشان نمیدهد. این خبررسانی چگونه انجام میشود؟ سازمانهای بزرگ از دادهکاوی برای شناسایی بخشهایی از جامعه که احتمال دارد در زمان بروز رخدادی واکنشهایی را نشان دهند استفاده میکنند و در بیشتر موارد این پیشبینیها درست است. جدیدترین مورد در این زمینه پیشبینی کاهش قیمت نفت با گسترش ویروس کرونا بود. برخی از سازمانهای بزرگ توانستند بر مبنای این پیشبینی میزان ضررهای مالی را به حداقل برسانند.
شناسایی خودکار الگوهای ناشناخته
ابزارهای دادهکاوی بیشتر برای بررسی بانکهای اطلاعاتی و شناسایی الگوهای ناشناخته قابل بهرهبرداری استفاده میشوند. یک مثال خوب در ارتباط با شناسایی الگوها، تحلیل دادههای فروش خردهفروشیها است. اینکار با هدف شناسایی محصولات غیرمرتبطی که توسط مردم خریداری میشود استفاده میشوند. شناسایی الگوها کاربرد دیگری نیز دارد که در ارتباط با شناسایی کلاهبرداری در کارتهای اعتباری است. در اینگونه موارد الگوهای دادهای ناشناخته و جدید خبر از سرقت اطلاعات کارتهای اعتباری و سایر کلاهبرداریها میدهند.
دادهکاوی چگونه استفاده میشود؟
همانگونه که اشاره شد دادهکاوی به معنای بهکارگیری ابزارهای تحلیلگر دادهها برای کشف الگوها و روابطی است که ناشناخته بودهاند. این ابزارها و راهکارها ممکن است مدلهای آماری، الگوریتمهای ریاضی و روشهای یادگیری ماشین باشند که اینکار را به شکل خودکار و با استناد به تجربیات قبلی که از طریق شبکههای عصبی بهدست آوردهاند یا درختهای تصمیمگیری انجام شود. البته به این نکته دقت کنید که دادهکاوی محدود به گردآوری و مدیریت دادهها نیست و تجزیه و تحلیل اطلاعات و پیشبینیها را شامل میشود. ابزارهایی که با بررسی فایلهای متنی یا چند رسانهای به کاوش در دادهها میپردازند سنجههای گوناگونی را ملاک عمل قرار میدهند که از آن جمله به موارد زیر میتوان اشاره کرد:
- قواعد انجمنی (Association): الگوهایی که بر اساس آن یک رویداد به دیگری مربوط میشود، بهطور مثال، خرید ماشین به خرید بنزین.
- ترتیب (Sequence): الگویی که به تجزیه و تحلیل توالی رویدادها پرداخته و مشخص میکند کدام رویداد، رویدادهای دیگری را به وجود میآورد، گرمای هوا و افزایش مصرف آب.
- پیشبینی(Prediction): در اینجا هدف پیشبینی یک متغیر پیوسته است، پیشبینی نرخ ارز یا هزینههای خدماتدرمانی.
- طبقهبندی (Classification): فرآیندی برای پیدا کردن مدلی است که ردههای موجود در دادهها را تعریف و متمایز میکند. اینکار به این دلیل انجام میشود که بتوان از این مدل برای پیشبینی رکوردهایی که برچسب آنها ناشناخته است، استفاده کرد.
- خوشهبندی (Clustering): گروهبندی مجموعهای از اشیا یا رکوردها به گونهای که اشیای موجود در یک خوشه بیشترین شباهت را به یکدیگر و کمترین شباهت را به اعضای خوشههای دیگر داشته باشند. این سنجه برخواسته از اصل مجموعهها در ریاضی است.
- مصورسازی (visualization): مصورسازی دادهها یکی از کارآمدترین روشهای اکتشاف در دادهها است.
برنامههای کاربردی که در زمینه تحلیل دادهها استفاده میشوند از محاورههای ساخت یافته که قابل اجرا روی بیشتر بانکهای اطلاعاتی هستند و توسط ابزارهای تجزیه و تحلیل آماری پشتیبانی میشوند استفاده میکنند. ابزارهای سادهای که برای تجزیه و تحلیل دادهها استفاده میشوند بر مبنای اصل راستیآزمایی (verification) کار میکنند که در آن فرضیهای بسط داده شده، آنگاه دادهها برای تأیید یا رد آن بررسی میشوند. درست مشابه با روشی که برای آموزش مدلها در مبحث یادگیری ماشین از آن استفاده میشود. بهطور مثال، ممکن است نظریهای مطرح شود که فردی که یک کامپیوتر میخرد حتما یک مانیتور نیز خریداری میکند. کارایی این روش به میزان خلاقیت ناظر برای ارائه فرضیههای متنوع و همچنین ساختار برنامه استفاده شده بستگی دارد. در نقطه مقابل این روش دادهکاوی قرار دارد که از روشهای خاصی برای کشف روابط استفاده میکند و الگوریتمهایی را برای تشخیص روابط میان دادهها استفاده میکند و آنهایی که یکتا (unique) یا متداول هستند را شناسایی میکند. بهطور مثال، در زمان خرید یک لپتاپ ممکن است بین خرید لپتاپ توسط مشتری با نوع کاری که انجام میدهد، سن، شغل، میزان درآمد یا محیط کار رابطهای برقرار شود. بر مبنای این فرضیه مالک فروشگاه ممکن است در آینده لپتاپهایی که مشخصات سختافزاری آنها مشابه با نمونههای فروخته شده است را بیشتر وارد کند. به اعتقاد برخی از متخصصان، دادهکاوی مرحلهای در روند کشف دانش در پایگاه دادهها (KDD) سرنام Knowledge Discovery From Data است. مراحل دیگر در روند کشف دانش در پایگاه داده پاکسازی، انتخاب و انتقال دادهها است. به همین دلیل است که دادهکاوی را الگوی ارزیابی و عرضه دانش توصیف میکنند.
علاوه بر پیشرفت ابزارهای مدیریت دادهها نباید از نقش رسانههای ذخیرهساز و افزایش قابلیت دسترسی به دادهها بی تفاوت گذشت. در چند سال گذشته افزایش ظرفیتهای ذخیرهسازی از یک سو و میل شرکتها و کاربران به جمعآوری و نگهداری سریع اطلاعات باعث شده تا تکنیکهای دادهکاوی بهبود پیدا کنند. متخصصان علم دادهها پیشبینی کردهاند که بهطور تخمینی کمیت دادهها در جهان هر ساله دو برابر میشود. همین موضوع باعث شده تا هزینه ذخیرهسازی دادهها به شکل قابل توجهی از واحد پایه دلار برای هر مگابایت به سنت برای هر مگابایت کاهش پیدا کند. مثال بارز در این زمینه ارائه سرویسهای ذخیرهساز رایگان گیگابایتی است که توسط سازمانهای بزرگ ارائه میشود. همسو با این جریان توان پردازشی کامپیوترها (در مقیاس خانگی و سازمانی) هر دو سال دو برابر میشود، اما هزینه دسترسی به این توان پردازشی کاهش پیدا میکند. ترکیب این عوامل با یکدیگر باعث میشود تا در آینده دادهکاوی در دو حوزه خصوصی و عمومی با استقبال روبرو شود. سازمانها دادهکاوی را به عنوان ابزاری قدرتمند برای افزایش مشتریان، کاهش تقلب، کاهش هزینهها و انجام تحقیقات پزشکی به کار میگیرند. البته رشد انفجاری دادهها و بهکارگیری بدون تامل راهحلهای دادهکاوی ممکن است پیامدهای اشتباهی به همراه داشته باشد. مهمترین نگرانی از بابت کیفیت دادههایی است که باید تحلیل شوند. دومین نگرانی مهم در ارتباط نقض حریم خصوصی کاربران است.
دادهکاوی از چند مرحله مهم تشکیل شده است؟
دادهکاوی از چند مرحله مهم تشکیل شده است. این فرآیند از جمعآوری دادههای خام آغاز میشود و تا شکلدهی دانش جدید ادامه پیدا میکند. فرآیند بازگشتی دادهکاوی شامل هفت مرحله پاکسازی داده (Data Cleaning)، یکپارچهسازی داده (Data Integration)، انتخاب داده (Data Selection)، تبدیل داده (Data Transformation)، دادهکاوی (Data Mining)، ارزیابی الگو (Pattern Evaluation) و ارائه دانش (Knowledge Representation) است. هر یک از مراحل یاد شده شامل توضیحات مفصلی هستند، اما برای آشنایی خوانندگان به شکل کوتاه به آنها اشاره میکنیم.
پاکسازی دادهها
- در این مرحله سعی میشود نویز از مجموعه حذف شود تا دادههایی که به لحاظ محتوایی یا ساختاری به یکدیگر شبیه هستند جمعآوری شود.
یکپارچهسازی دادهها
- در بیشتر موارد دادههای متعلق به منابع مختلف باید بررسی شوند. این بررسی میتواند به یکباره یا در فواصل زمانی کوتاهمدت انجام شود. یک مثال روشن در این زمینه بانکهای اطلاعاتی مورد استفاده توسط شعب مختلف فروشگاههای زنجیرهای است که در شهرهای مختلف مستقر شدهاند. برای تحلیل دقیق لازم است تا دادهها در یک انباره دادهها جمعآوری شوند.
انتخاب دادهها
- در این مرحله، باید دادههای مرتبط با تحلیل را انتخاب و از مجموعه دادهها برای انجام تحلیل استفاده شود.
تبدیل دادهها
- تبدیل دادهها یک روش تثبیتکننده دادهها است. در این مرحله دادههای انتخاب شده به قالب دیگری تبدیل میشوند. اینکار با هدف سادهسازی و دقت فرآیند کاوش انجام میشود. از رایجترین روشهای به کار گرفته شده در این زمینه میتوان به استانداردهای Z1 تا Z7 اشاره کرد.
دادهکاوی
- در این مرحله از روشهای خلاقانهای برای استخراج الگوهای مهم از میان دادهها استفاده میشود. الگوریتم اپریوری یا هوش ازدحامی با استفاده از کلونی زنبور عسل از جمله این روشها هستند.
ارزیابی الگو
- در این مرحله، الگوهای بهدست آمده به لحاظ جنبههای مختلف که پیرامون دقت، صحت و قابلیت تعمیم قرار دارند بررسی میشوند. در این مرحله متخصصان از روشهایی همچون آزمون فرض میانگین جامعه آماری، اعتبارسنجی متقابل، روشهای بازنمونهگیری جکنایف و بوتاسترپ استفاده میکنند.
ارائه دانش
- آخرین مرحله در دادهکاوی است. دانش شناسایی شده به شیوه قابل درک برای کاربر نهایی آماده میشود. در این مرحله از راهحلهای بصریسازی برای کاربردی کردن اطلاعات استفاده میشود. این کار به کاربر نهایی کمک میکند تا تفسیر دقیقی از نتایج بهدست آمده پیدا کند
به این مطلب چند ستاره میدهید؟(امتیاز: 4 - رای: 2)
- منبع: ماهنامه شبکه